重磅！Mistral 发布Large 2 123B大模型PK Meta王炸，网友：疯了疯了都疯了

Original 尹小军 AGI Hunt

2024-07-25

我们可能正在见证一场AI界的地震。

不是地震，是特么的海啸！

昨天Meta发布的Llama 3.1 还没消停，就在刚刚，法国AI公司Mistral又杀出来，宣布了自家Large 2 123B大作！

这次新模型可是下了血本啊：

123B参数，比上代70B足足翻了近一倍
128K上下文窗口，长文处理不在话下
支持11种语言，包括中文、日语、韩语等
训练了80+种编程语言，连Swift和Fortran都有
原生支持函数调用和结构化输出

看到这些参数，有网友直呼：

那些疯狂的开源混蛋真要赢了哈哈哈哈，这是最好的时间线！

Image 2: Detailed benchmarks

从官方放出的性能数据来看，这次真有点东西：

MMLU：84.0% vs 79.3% (70B) vs 85.2% (405B)
HumanEval：92% vs 80.5% (70B Ins) vs 89% (405B Ins)
GSM8K：93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)

也就是说，在某些任务上，这个123B的模型已经能和Llama 3 405B掰掰手腕，几乎平手了！

有网友看到这个结果直接惊呼：

改个许可证你就偷走了Meta的整个策略。值了。

不过话说回来，对硬件要求也是杠杠的：

fp16/bf16：约250GB显存
fp8/int8：约125GB显存
int4：约60GB显存

昨天刚被Meta 炸，今天又被Mistral 震，网友真的麻了，称：

这是我试图跟上开源AI最新进展的样子

除了常规的NLP任务，这次Mistral还在代码生成上下了大功夫。

Image 3: Detailed benchmarks

Image 4: Detailed benchmarks

从上面可以看出，在代码生成方面，新模型甚至超过了GPT-4！

有网友对此表示期待：

Mistral的前作Codestral Mamba就很强，这次的Large 2肯定会在复杂代码生成上更厉害。

Image 5: Detailed benchmarks

在数学推理方面，新模型也有不俗表现。GSM8K和MATH两个基准测试上，都和顶级模型不相上下。

除了性能，Mistral还特别强调了模型的指令跟随能力和对话能力。

Image 6: Detailed benchmarks

从MT-Bench、Wild Bench和Arena Hard这几个基准测试上看，新模型在这方面也是相当能打。

不过Mistral还特别提到了一点：

在某些基准测试中，生成较长的回复往往会提高分数。然而，在许多商业应用中，简洁至关重要 - 简短的模型生成有助于更快的交互，并且在推理方面更具成本效益。

Image 7: MT Bench benchmarks

在MT Bench基准测试的问题上，Mistral Large 2的平均生成长度明显短于其他模型。

这一点确实很有意思。毕竟在实际应用中，又快又准才是王道。

在多语言能力方面，新模型也是相当给力：

Image 8: Detailed benchmarks

Image 9: Detailed benchmarks

从多语言MMLU基准测试结果来看，Mistral Large 2在各个语种上都有不错表现，尤其是在法语、德语和西班牙语上。

最后，在工具使用和函数调用方面，新模型也是下足了功夫：

Image 10: Detailed benchmarks

可以看到，Mistral Large 2在这方面甚至了GPT-4和Claude 3！至于有没有超过Llama 3.1，估计是时间撞车了，没来得及评吧！

看到这里，有网友调侃道：

Llama 3.1，接好我的啤酒...

确实，这波Mistral来得又快又猛，Meta这边估计得加把劲儿了。

不过也有网友表示担心：

把许可证改成Apache 2.0或类似的，你就赢了。

毕竟目前Mistral Large 2是在Mistral Research License下发布的，这个许可证只允许研究和非商业用途。

Image 11: Detailed benchmarks

总的来说，这次Mistral的新作确实又双叒叕一次给开源AI界带来了巨大震动。

有网友直呼：

7月似乎是开源的好月份！

确实，从Llama 3到Mistral Large 2，再到之前的Claude 3，这波AI界的"夏日大狂欢"真是一波未平一波又起啊！

而网友弗洛里安 S @airesearch12 在惊呼：

太棒了！Meta发布Llama 3.1的一天后！🔥

的同时也不忘手动艾特一波OpenAI：

@OpenAI 赶紧发布GPT-5吧，如果你们真的有的话（我开始怀疑了——越来越觉得你们只是把它改名为GPT-4o，因为它不够强大）。

看来，Sam Altman 是该努力一把了！

那么问题来了，你更看好哪家呢？

欢迎在评论区留言讨论~

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

性高潮到底什么感觉？真实记录多位女性的自述

贺雪峰：精准扶贫为何陷入形式主义？！

什么情况？这家券商被中证协"拉黑"

重磅！Mistral 发布Large 2 123B大模型PK Meta王炸，网友：疯了疯了都疯了

相关链接

本文同步自于知识星球《AGI Hunt》

您可能也对以下帖子感兴趣

刚刚，我国DUV光刻机实现里程碑式突破！

微博遗存之六

性高潮到底什么感觉？真实记录多位女性的自述

贺雪峰：精准扶贫为何陷入形式主义？！

什么情况？这家券商被中证协"拉黑"

生成图片，分享到微信朋友圈

重磅！Mistral 发布Large 2 123B大模型PK Meta王炸，网友：疯了疯了都疯了

相关链接

本文同步自于知识星球《AGI Hunt》

您可能也对以下帖子感兴趣